文章目录
在抓取网页的时候经常遇到网页编码问题,我们需要将抓取的网页进行解码以后才能正确得到网页上的 内容,那么怎么获取网页的编码方式呢?很多人还在手动去查看网页源码,然后找到charset吗?下面是百度经验的编辑器页面的编码方式。
- 引入两个模块,urllib2用于获取源码,chardet用于检测编码方式
- 先获取网页,存放于f中
- 读取网页的内容,存放在txt中
- 使用detect方法来获得网页的编码方式
- 我们读取一下网页编码方式:
转载请注明来自DataScience.
邮箱: 675495787@qq.com